#数据准备
import pandas as pd

#自定义列名
names = ['label','a1','a2','a3','a4','a5','a6','a7','a8','a9','a10','a11','a12','a13']
#读取数据，并覆盖原列名
dataset = pd.read_csv("D:\\机器基础\\yinmujiu\\ml-lesson\\03_dataset\\item4\\wine.data",names=names)

#print('葡萄酒原始数据集如下：')
#print(dataset)

#分别提取特征值和标签值
data = dataset.iloc[range(0,178),range(1,14)]#特征变量
target = dataset.iloc[range(0,178),range(0,1)]#标签
print(f'特征数据集的形状：{data.shape}')
print(f'标签数据集的形状：{target.shape}')

#使用箱形图来统计异常数据分布情况
import  matplotlib.pyplot as plt

#plt.style.use('seaborn-darkgrid')
plt.rcParams['axes.unicode_minus'] =False
data.plot(kind='box',subplots=True,layout=(3,5),sharex=False,sharey=False)
p=data.boxplot(return_type='dict')
for i in range(13):
    y =p['fliers'][i].get_ydata()
    print(f'a{i+1}中的异常值:{y}')
plt.show()